2018-NIPS-Co-teaching: Robust Training of Deep Neural Networks with Extremely Noisy Labels

https://papers.nips.cc/paper/2018/hash/a19744e268754fb0148b017647355b7b-Abstract.html

非常に良い解説記事が以下のリンクであるので、ここでは補足を基本的にする

【論文紹介】Co-teaching(Han et al. 2018)

Introduction

Noise Transition Matrixはインスタンス依存などもあっても、性能に限界がある。今はCleanなラベルをできるだけ選び出して、それらを使って訓練するSample Selectionである。

Mentor Net 📄2018-ICML-MentorNet: Learning Data-Driven Curriculum for Very Deep Neural Networks on Corrupted Labels の先行研究では、小さいCleanな集合でまずMentor Netを訓練し、それをもとにどのサンプルにどれほどの重みをつけるべきかがMentor Netの出力になるので、それからStudent Netを訓練する。(まずは単独でMentor Netを訓練。そして、Mentor Netからの情報でStudent Netを訓練→Student Netの情報からMentor Netを訓練し、この2つを繰り返す)ここでCleanなデータセットがないと、既存のカリキュラム学習をするしかない。

ほかにも、Decouplingは2つのNetworkを同時に訓練するが、同じサンプルに対して、違う判断結果となるものだけを更新していく。気持ちとしては、訓練の早期での更新はラベルが間違っているからであるが、十分に学んだあとはNoisy Labelによって望ましくない更新が起きているから。だったら、2つのネットを訓練し、その判断(ラベルとそれぞれの予測器の合致度)が同じ=両方の学習器がそのサンプルについて同じ認識(ラベルからの遠近を問わず)なら、そのサンプルについての学習はもうしない。なぜならサンプルのラベルがNoisyラベルでありうるし、2つのネットの見解が一致したのにさらに学習してNoisyにフィットされても困るから。

Method

Cleanなデータ=特徴量がわかりやすい。Noisyなデータ=特徴量がわかりづらいという仮定。
Memorization EffectによってDNNはCleanなデータ=わかりやすいデータを先に学習し、Noisyのものは後で学習する。
ならば、(特に訓練の途中からは)損失が少ない=ほぼ正解であるデータでさらに学習を進めるのはOK。大きな損失を持つデータはラベルが間違っているからである可能性があるので、あえて学習をしない！
最初は多くのデータで学習をするが、次第に損失の少ないデータに絞って学習をする。
- 📄2019-PMLR-[SELFIE] Refurbishing Unclean Samples for Robust Deep Learning と矛盾する感じがするが、無向はラベルを修正することを前提に全数を学習させに行く。
2つ同時に訓練することによって、2つの識別境界を作る。それぞれがラベルノイズをフィルタリングして、正しいと思われるサンプルの損失だけで、相手のネットのパラメタを更新させる。
- 別の視点を持つネットに、自分では気づけないようなノイズでも、相手のネットが持つ識別能力でできるように。

Co-trainingとの関係

同時にネットを訓練すると、1つだけ訓練するよりもいい結果が出るCo-Trainingからこの論文は着想を得た。しかし、直接的に完全に互換できるわけではない。

Co-Trainingとは、以下のようなものである。

少量のラベル付きデータと、大量のラベルなしデータを用意する。
基本人間が見るべき特徴量を決めて、識別器Aは特徴Xに着目、BはYに着目というように、それぞれの視点でラベルありデータで学習してもらう。
識別器Aがラベルなしデータについて予測し、自信のあるデータにそのラベルを付けて、Bの追加の訓練データにする。Bも同様にAの追加データを生成する。
1. 上のものを繰り返す。

これとTo-teachingの違いは以下のようになる。

Co-Trainingはそれぞれが2つの特徴量の集合=視点を持つが、Co-teachingは同じようにbackwardさせるので、視点は1つだけ(学習の初期値が違うので収束までの道筋が違うだけ)
Co-TrainingはMemorization Effectを使っていない。
Co-TrainingはSelf-supervised Learning。こっちはNoisy Labels。